(12) NACH DEM VERTRAG OBER DIE INTERNATIONALE ZUSAMMENARBEIT AUF DEM GEBIET DES 
PATENTWESENS (PCT) VEROFFENTLICHTE INTERNATIONALE ANMELDUNG 



(19) Weltorganisation fQr geistiges E^entum 
Intemationales Biiib 




iiiiniiiiiiiiiiiiiaiiii 



(43) Internationales Verdfrentlicbungsdatum (10) Internattonale Ver6fTentllcbungsnunimer 

27:De2»mbcr2()02 (27J2.2()(>2y^ PCX WO 02/103532 A2 



. (51) InteraatiODale PatentklassiiSkatioD^: GOiSF 13/28, 
13/36. GUC 16/00. G06F 15/80. 9/45. 11/36, 15/18. 1/04. 
9/38, 15/76, 11A22, 15/177, 7/00. 1/32 



(21) laternationales Aktenzeichea: 



PCT/EP02/06865 



(22) iDteraattonales Anmeldedatum: 

20. Juni 2002 (20.06.2002) 



(25) Einreichungssprache: 

(26) VerOffentUchaagsspracbe: 
(30); Angaben zur PriorttSt: 



Deotsch 
Deutsch 



101 29 237.6 20. Juni 2001 (20.06.2001) DE 

01115021.6 20. Juni 2001 (20.06.2001) EP 

101 35 210.7 24. Juli 2001 (24.07.2001) DE 

101 35 21 1 .5 24. Juli 2001 (24.07.2001) DE 

101 39 170.6 16. August 2001 (16.08.2001) DE 



10142 231.8 
10142 903.7 
101 42 894.4 
10142 904.5 
101 44 732.9 

10144 733.7 
10145792.8 

10145 795.2 

101 46 132.1 
10154260.7 
101 54 2593 
01129923.7 
02001331.4 
10202 044.2 
102 02175.9 
102 06 653.1 
10206 857.7 
102 06 856.9 



29. August 2001 (29.08.2001) DE 

3. September 2001 (03.09.2001) DE 

3. September 2001 (03.09.2001) DE 

3. September 2001 (03.09.2001) DE 

1 1. September 2001 (1 1.09.2001) DB 

11. S^tember2001 (11.09.2001) DB 

17. September 2001 (17.09.2001) DB 

17. September 2001 (17.09.2001) DB 

19. Sc4)tember 2001 (19.09.2001) DB 

5. November 2001 (05.1 1.2001) DE 

5. November 2001 (05. 1 1.2001) DE 

14. Dezembcr 2001 (14.12.2001) EP 

18. Januar 2002 (18.01.2002) EP 

19. Januar 2002 (19.01.2002) DB 

20. Januar 2002 (20.01.2002) DE 
15. Februar 2002 (15.02.2002) DE 
18. Februar 2002 (18.02.2002) DE 
. 18. Febroar 2002 (18.02.2002) DB 

[Fortsetzung mf der nOchsten Seite] 



(54) TWe: DATA PROCESSING METHOD 

(54) BczeichDODg: VBRFAHREN ZUR BEARBETTUNG VON DATEN 



0111 



mmm 


mmm 








0113 , 



0116! 



IT) 
to 




10118 



0117 



V'0119 i 



0101 




0102 




0103 







(57) Abstract: The invention relates to a method for translating programmes into a system consisting of at least one first processor 
and a le-configurable unit According to the inelhod, parts of the code that are suitable for the le-configurable unit are determined 
and extracted and the remaining code is extracted in this manner for processing by the first processor. 

[Fortsetzung mf der ndchsten Seite] 
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(57) Zusammenfossung: Die ErBndung betriSt ein Verfahien zur Obersetzung von Programmen auf ein System bestehend aus 
wenigstens einem ersten Prozessor und einer rekonfigurierbaren Einheit. Hierbei ist voigesehen. dass die Codeteile. die die 
tekonfigurieibare Einheit geeignet sind, besdmmt and extrahiert werden und der veibleibende Code zur Abarbeitung durch den 
ersten Prozessor derart extrahiert wird. 
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Titel: Verfahren zur Bearbeitiing von Daten 

Beschreibung 

Die vorliegende Brfindung befafit sich mit Datenverarbeitung. 
Insbesondere befafit sicb die vorliegende Erfindung mit her- 
k6inmlichen, d.h. konventionellen und rekonf igurierbaren Pro- 
zessorarchitekturen sowie mit Verfahren hierfflr, die eine 
Ubersetzung einer klassischen Hochsprache (PRCX5RAMM) wie 
Pascal, C++, Java, etc. ermoglichen, insbesondere auf eine 
rekonf igurierbare Architektur. Insbesondere* befafit sich die 
vorliegende Erfindung mit der Integration und/oder engen Kopp- 
lung von rekonf igurierbaren Prozessprisn mit. StandardprozessQ- 
ren, dem Datenaustausch und der Synchronisation der Datenver- 
arbeitung. 

Unter einer konventionellen Prozessorarchitektur (PROZESSOR) 
werden vorliegend beispielsweise sequentielle* Prozessoren mit * 
einer von-Neumann- oder Harvardarchitektur verstanden, wie 
Z.B.. Kontroller, CISC-, RISC-, VLIW-, DSP-, u.a. Prozessoren 
verstanden . 



BESTATIGUNGSKOPIE 
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Unter einer rekonf igurierbaren Zielarchitektur werden vorlie- 
gehd Bausteine (VPD) mit wiederholt \md insbesondere zur Lauf - 
zeit insbesondere unterbrechiingsfrei konf igurierbarer FunJctipn 
und/od6r Vernetzung verstanden, insbesondere integrierte Bau- 
steine mit eirier Mehrzahl von ein- oder mehrdimensional ange- 
ordneten arithmetischen uhd/oder logischen vnd/odei analbgfen 
und/oder speichemden insbesondere evtl. auch grobgranularen 
Baugruppen (PAE) , die direkt oder durch ein Bussystem mitein- 
ander verbimden sind. 

Zur Gattung dieser Bausteine zahlen insbesondere. systolische 
Arrays, neuronale Net.ze> 14ehrprozessor Systeme, Prpzessoren 
mit mehreren Rechenwerken und/oder logischen Zellen, Vemet- 
zungs- tind Netzwerkbausteine wie z.B. Crossbar- Schalter, eben- 
so wie bekannte Bausteine der Gattxing FPGA, DPQA, XPDTER, 
etc. . Hingewiesen wird insbesondere in diesem Zusaramenhang auf 
die foigenden Schutzrechte desselben Anmelders: P 44 16 881.0- 
53, DE 197 81 412.3, DE 197 81 483.2, DE 196 54 846.2-53, 
DE 196 54 593.5-53, DE 197 04 044.6-53, DE 198.80 129.7, 
DE 198 61 088.2-53, DE 199 80 312.9, PCT/DE 00/01869, DE 100 
36.627.9-33, DE 100 28 397.7, DE 101 10 530.4, DE 101 11 
014.6, PCT/EP 00/10516, EP 01 102 674.7, DE 196 51 075.9-53,. 
DE 196 54 846.2-53, DE 196 54 593. 5-53, DE 197 04 '728.9, " 
DE 197 07 872.2, DE 101 39 170.6, DE 199 26 538.0, 
DE 101 42 904.5, DE 101 10 530.4. Diese sind hiermit zu Offen- 
barungszwecken vollumfSnglich eingegliedert. 

Das System kann insbesondere als (Standard) -Prozessor oder 
Baugruppe ausgestaltet sein und/oder in einem Halbleiter (Sy- 
stem on Chip SoC) integriert sein. 

Rekonf igurierbare Bausteine (VPUs) unterschiedlicher Gattungen 
(wie z.B. PACT XPP-Technologie, Morphics, Morphosys, Chamele- 
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on) sind. zu bestehenden technischen Uragebimgen und Program- 
mierverfahren weitgehend inkompatibel. 

Programme . f(ir:..diesfe B^^ J^VP.^®^^ 

reits bestehenden Prograirahen von CPUs* badurch wird ein efheb- 
licher Entwicklungsaufwaiid zur Programmierung- erf orderlich, 
z.B. besonders fur Bausteine der Gattxingen Morphics, Morpho- 
sys. Chameleon integriert bereits einen Standardprozessor 
(ARC) auf mehr Oder minder rekonf igurierbaren Bausteinen. Da- 
durch Btehen Ansatze fxir Tools zur Programmier\ing zur Verfu- 
gung.. JVllerdings ist nicht jede technische Umgebxing fur. den 
Einsatz v6h I^C-Prozessbren geeignet, insbesondere liegen be- 
stehende Programme, Codebibliotheken etc. oftmals fflr beliebi- 
ge unbestimmte andere CPUs vor. 

Es hat sich in internen Versuchen gezeigt, dafi es bestimmte 
Verfahren und Programmablaufe gibt, die sich besser mit einer 
rekonf igurierbare Architektur abarbeiten lassen als mit einer 
konventionellen Prozessorarchitektur, Uragekehrt gibt es auch 
solche Verfahren und Programmablaufe, die besser mit einer 
konventionellen Prozessorarchitektur ausgefiihrt warden konnen. • 
Es ist dafar wunschenswert, um eine jeweilige Optimierung zu 
ermoglichen, eine Ablaufteiliinig vorzusehen. 

Bekannte Ubersetzungsverfahren fur rekonf igurierbare Architek- 
turen unterstfltzen keine Weitergabe von Codes an beliebige 
Standard- Compiler zur Generierung von Ob jekt codes fir einen 
beliebigen PROZESSOR. Gew6hnlicherweise ist der PROZESSOR fest 
innerhalb des Compilers definier.t. 

Weiterhin existieren keine Scheduling-Mechanismen zur Rekonfi- 

guration der einzalnen generierten Konf igurationen fur VPUs. 

Insbesondere fehlen Scheduling-Mechanismen f\ir die Konfigura- 
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tion unabhSngiger extrahierter Teile gleichwohl wie fdr ein- 
zelne Partitionen extrahierter Teile. Entsprechende IJberset- 
zungsverfahren na^^ der Technik sind beispielsweise 

Vdefiniert durch die . Dissertation. ^rOberse^ 
strukturprogrammierbare Rechner, Dr. Markus Weinhardt, 1997'. 

Zur Partitionierung von Array-CODE sind mehrere Verfahren nach 
dem Stand der Technik bekannt, z. B. Joao M. P. Cardoso, « Com- 
pilation of Java™ Algorithms onto Reconf igurable Computing Sy- 
stems with Exploitation of Operation-Level Parallelism', Ph. 
D. Thesis Universidade T^cnica de Lisboa (UTL) , 2000. 

Diese Verfahrien sind jedoch in keine kompletten Compilersyste- 
me eingebettet. Weiterhin setzen die Verfahren die vollstSndi- 
ge Steuerung der Rekonf iguration durcfa einen Hostprozessor 
voraus, was einen erheblichen Aufwand bedeutet. Die Partitio- 
nierungsstrategien sind fiir FPGA-basierende Systeme ausgelegt 
und entsprechen dciher keinem echten Prozessormodell. 

Die Aufgabe dieser Erfindung besteht darin, Neues fiir die ge- 
werbliche Anwendung bereitzustellen. 

Die Losung dieser Aufgabe wird iii unabhihgiger Form bean- 
sprucht. Bevorzugte Ausfuhrungen finden sich in den Dhteran- 
sprflchen. 

Bin rekonfigurierbarer Prozessor tVPU) wird somit in eine 
technische Umgebung eindesigned, die einen Standardprozessor 
(CPU) besitzt, wie beispielsweise einen DSP, RISC, CISC- 
Prozessor oder (Mikro) -Kontroller aufweist-. Das Design kann 
erf indungsgemSS derart erfolgen, dass eine einfache und lei- 
stungsfahige Anbindung besteht. Eii; sich ergebender Aspekt ist 
die einfache Programmierbarkeit des entstehenden Systems. Die 
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Weiterverwendung bestehender Programme der CPU sowie die Code- 
korapatibilitat und die einf ache Integration der VPU in die be- 
istehenden Progranmie f inden 

Eine VPU (oder ohne jeweils besonders erwahnt zu werden, meh- 
rere VPtJs) wird derart mit einer bevorzugten CPU (oder ohne 
jeweils besonders erwahnt zu werden, mehreren CPUs) gekoppelt, 
dass sie die Stelle und Funktion eines Coprozessors (bzw. tneh- 
rerer wahlweise ansprechbarer Coprozessoren) einnimmt - Die 
Funktion ermoglicht die einfache Einbindung in bestehende Pro- 
grammcodes entsprechend den bereits existierenden Methoden zum 
Orngeuig mit Coprozessoren hach dem Stand der Technik. 

Der erfindungsgemclSe Datenaustausch zwischen CPU und VPU kann 
mittels Speicherkopplung und/oder lO-Kopplmg erfolgen. CPU 
und VPU kdnnen samtliche Ressourcen teilen, in besonderen Aus- 
gestaltungen ist es auch m&glich, dass CPU und VPU nur eihen 
Teil der Ressourcen gemeinsam verwenden und andere Ressourcen 
jeweils e3q)lizit und/oder exclusive fiir eine CPU oder VPU zur 
Verfiigung stehen. 

Um einen Datenaustausch durchzufxihren/ konnen Datensatze 
und/oder Konfigur at ioneh in jew-eils besonders dafCLr vorgesehen 
Speicherbereiche kopiert bzw. geschrieben/gelesen werden 
und/oder entsprechende Basisadressen gesetzt werden, dass die- 
se auf die jeweiligen Datenbereiche zeigen. 

Zur Steuer\ing des Coprozessors wird bevorzugt ein batensatz 

vorgesehen, der beispielsweise die Grundeinstellungen einer 

VPU beeinhaltet, wie beispielsweise bestimmte Basisadressen. 

Desweiteren kdnnen Statusvariablen zur Ansteuerung und Punkti- 

onssteuerting einer VPU durch' eine CPU sowie fiir Riickmeldungen 

einer VPU an eine CPU vorgesehen sein. Der Datensatz kann \iber 
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einen gemeinsamen Speicher (RAM) und/oder uber einen gemeinsa- 
men peripheren Adressraiim (10) ausgetauscht werden. 

Zur Synchronisation der CPU und VPU kdnnen einseitig oder ge- 
genseitig wirkende Interruptverfahren (die z.B. durch Signal- 
transfer fiber insb^sondere dedizierte bzw.' hierfur ausgeibilde- 
te Interruptleitungen und/oder Interrupteingange realisiert 
sind) vorgesehen sein und/oder die Synchronisation erfolgt 
mittels Pollingverfahren. Weiterhin konnen Interrupts zur Syn- 
chonisation von Daten- vind/oder DMA-Transfers verwendet wer- 
den. 

In einer besonders zu bevorzugenden Ausgestaltung wird eine 
VPU durch eine CPU gestartet und arbeitet danach bevorzugt un- 
abhangig die i^plikation ab. 

Besonders leistungsfahig ist ein bevorzugter Aufbau, bei wel- 
Chen die verwendete VPU eigene Mechanismen zum Laden und Kon- 
trollieren von Konf igurationen vorsieht, Zur Gattung dieser 
VPUs gehdren beispielsweise PACT XPP und Chameleon. Die erf in- 
dungsgemaSen Schaltungen ermoglichen ein Verf ahren zum Betrieb 
derart, dass die Konf igurationen der VPU zusammen mit dem aus- 
zufuhrenden Programm der CPp in einen Speicher geladen werden. 
Die CPU kaim wShrend der Ausfuhrung des Programmes die VPU auf 
die Speicherstellen verweisen (z.B. durch Angabe der Adressen 
Oder Pointer) , die die jeweils auszufflihrenden Konf igurationen 
beinhalten. Die VPU kann daraufhin die Konf igurationen selb- 
standig und ohne weitere Einf lufinahme durch die CPU laden. Die 
Ausffihrung startet sofort oder ggf . durch eine. zusStzliche In- 
formation (z.B. Interrupt und/oder Start- Befehl) durch die 
CPU. . 
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In einer besonders bevorzugten Erweitenmg kann die VPU selb- 
stsindig innerhalb elnes Speichers Daten lesen und schreiben. 

In einer besonders bevorzugten Erweiterung kann die VPU eben-^ 
fails selbstandig neue Konf igurationen aus dem Speichef laden 
tind sich bei Bedarf neu konfigurierezi, ohne dass es eih^s wei- 
teren Einf lusses durch die CPU bedarf.. 

Diese Ausgestaltungen ermoglichen einen weitestgehend von CPUs 
unabhangigen Betrieb von VPUs. Lediglich ein Synchronisations- 
austausch zwischen CPU und VPU, der bevorzugt bidirektional 
stattf inden kann, . sollte .ziisatzlich vorgesehen werden, um die 
Datenverarbeitungen und/oder Konfigurationsausfdhrungen auf- 
einander abzustimznen. 

Es wurde weiter erkannt, dafi Verfahren zur Datenverarbeitung 
bevorzugt so ausgelegt werden kdnnen und/oder sollen, da& je- 
Weils fHiT die rekonf igurierbare Zielarchitektur (VPU) beson- 
ders geeignete Teile (VPU-CODE) des zu Qbersetzenden Program- 
mes identif iziert und extrahiert werden, um eine besonders ef- 
fiziente Datenverarbeitung zu ermoglichen. Diese Teile sind 
entsprechend zu partitionieren und die Konf iguration der ein.- 
zelnen Partitionen ist in ihrer zeit lichen Reihenf plge zu 
steuern. 

Die verbleibenden Teile des Programmes kSnnen auf eine konven- 
tionelle Prozessorarchitektur (PROZESSOR) ilbersetzt werden. 
Dies geschieht bevorzugt dergestalt> daS diese Teile als Hoch- 
sprachencode in einer Standard-Hochsprache (z. B. ANSI C) der- 
art ausgegeben werden, daS ein gewdhnlicher (ggf . bereits exi- 
stierender) Hochsprachencompiler diese ohne weiteres verarbei- 
ten kann. 
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Weiterhin sei angemerkt, dafi die Verfahren auch auf Gruppen 
von mehreren Bausteihen angewendet werden kdnnen. 



Insbesondere kann eine Art "Double-Buffering" 2ur besonders 
eirifachen und zugleich schnellen Rekonfigiiratiori angewendet 
wefderi^ in welchem eine Mehrzahl von VPUs vbrgeseheri sind, wo- 
bei ein Teil der VPUs zu einer Zeit rekonf iguriert werden 
kann, zu welcher ein anderer Teil rechnet und tnoglicherweise 
ein Weiterer etwa inaktiv sein kann. Die Daten-, Trigger-, 
Statusverbindungen etc. werden zwischen der Mehrzahl von VPUs 
geeignet ausgetauscht und ggf . durch adressierte Busse ^ 
und/oder Multiplexer /Demultiplexer ent sprechend der aktuell 
aktiven und/oder zu rekonf igurierenden VPUs verschaltet. 

Ein Vorteil dieses Verfahrens liegt darin, daS bestehender 
Code, der fQr einen beliebig^n PR02BSS0R geschrieben wurde, 
unter Einbeziehung einer VPU weiterverwendet werden kann und 
keine oder nur vergleichsweise geringe Modif ikationen durchge- 
filhrt werden mflssen. Die Modif ikationen konnen zudem schritt- 
weise -erfolgen, wobei nach und nach immer mehr Code von dem 
PROZESSOR auf die VPU ubertragen werden kaiin. Das Projektrisi- 
ko sinkt \ind die Uberschaubarkeit steigt wesentlich an. Es 
wird darauf hingewiesen, daS einer derartigen sukzessive Uber- " 
tragung von itniner mehr Aufgaben auf die VPU, d.h. auf das in- 
tegrale multidimensionale partiell rekonf igurierbaren insbe- 
sondere grobgranulare Feld an Elementen, eine besondere Bedeu- 
tung far sich hat und fOr sich als erfinderisch angesehen wird 
aufgrund seiner gravierenden Vorteile bei der Systemportie- 
rung. 

Weiterhin kann der Programmierer in seiner gewohnten Entwick- 
lungsumgebung arbeiten und muS sich nicht auf eine neue, mog- 

licherweise fremde Entwicklimgsumgebung einstellen. 
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Ein erster wesehtlicher Aspekt deir vorliegenden Erfindurig ist 
darin zu sehen, daS ein PROZESSOR derart iriit einer oder mehre-. 
ren VPU(s) verbunden wird, daS ein effizienter Informations- 
austaiisch, insbesondere in Forin von Dateii- und Statusinforma- 
tion mdglich ist, ' : * 

Der Anordnung eines herkdmmlichen Prozessors und eines rekon- 
figurierbaren Prozessors, dergestalt, daS ein Austausch von 
paten- iind/oder Statusinformatiori zwischen deiiselben wahrend 
der Abarbeitiing eines oder mehrerer Programme moglich ist 
und/oder ohne dafi insbesondere die Datenverarbeitung auf dem 
rekonf igurierbaren Prozessor und/oder dem herkommlichen Pro- 
zessor signifikant unterbrochen werden mu&, sowie der Ausbil- 
dung eines derart igen Systems, wird gleichfails fixx sich Be- 
deutimg zugemessen. 

Es kdnnen zunachst beispielsweise eines oder alle der folgen- 
den Verbindungsverfahren und/oder -mittel verwend^t werden: 

a) Shared-Memory 

b) Netzwerk (beispielsweise Bussysteme wie. z.B. PCI -Bus., Se- 
rielle Busse wie Z;B. Ethernet) 

c) Kopplung an einen intemen Registersatz oder mehrere* in- 
teren Registersatze 

d) andere Speichermedien (Festplatte, Flash-ROM, etc.) 

Prinzipiell kann auch die VPU und/oder CPU selbst&ndig ohne 

Zuhilfenahme eines DMAs auf den Speicher zugreifen. Der ge- 

meinsame Speicher kann insbesondere auch als Dualport- oder 

Multiportspeicher ausgestaltet sein. Dem System k5nnen weitere 

Baugruppen zugeordnet werden, insbesondere k5nnen rekonfigu- 

rierbare FPGAs eingesetzt werden, um eine feingranulare Verar- 

beitung von einzelner Signale oder Datenbits zu ermoglichen 
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und/oder flexible adaptierbare Interface (z.B. diverse seriel- 
le Schnittstellen (V24, USB, etc.), diverse parallele Schnitt- 
stelleri, Pestplattenschnittstellen, Ethernet, Telekpnpunikati- 
pnsschnittstellen (a/b, TO, ISDN, DSL, etc) ) . auf bauen zu k6nr 
nen . 

Der Aufbau einer VPU ist beispielsweise bekannt aus den o. g. 
zitierten Anmeldungen. Versuche zu alternativen Bausteindef i- 
nitionen sind beispielsweise unter dem Namen Chameleon gefuhrt 
worden. VPUs lassen sieh auf unterschiedliche Weise in ein Sy- 
stem integrieren. Ein AnschluS an einen Hostprozessor ist bei- 
spielsweise inoglich. Je nach Verf ahren kaiin der Hostprpzessor 
die Konfigurationskontrolle (HOSTRECONF) mit tUbemehmen (z. B. 
Chameleon) oder, z. B., eine dedizierte Einheit (CT) zur 
Steuerung der (Re)Konf iguration bestehen^ 

Entsprechend generiert der Obersetzer gei^SS dem beschriebenen 
Verfahren die Steuerinformation fflr die Rekonfiguration fiir 
eine CT tmd/oder einen HOSTRECONF. 

Es kann nun das Ubersetzxingsprinzip derart ausgestaltet sein, 
daS aus einem PROGRAMM mittels eines PRAPROZESSORS die Telle 
extrahiert werden, die sich auf die jeweils bestitrante(nj 
VPU(s) effizient und/oder sinnvoll abbilden lassen. Diese Tel- 
le werden in ein fur VPUs geeignetes Format transf ormiert 
(N^^L) und dann weiter in einen Objektqode iibersetzt. 

Der verbleibenden Code \md/oder der* extrahierte Code wird er- 

f ahrungsgemas an oder beziaglich der Stelle der durch die Ex- 

traktion fehlenden Code-Teile urn einen Interface -Code erwei- 

tert, der entsprechend der Architektur des Zielsystems die 

Kotnmunikation zwischen PROZESSOR (en) und VPU(s) steuert. Der 

verbleibende und ggf . erweiterte Code kann bevorzugt 
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trahiert werden sollen. Beispielsweise kann dies folgenderma- 
fien erfolgen: 



Code 

# START_EXTRACTION 

Zu extrahierender Code 

# END^EXTRACTION 

Code 

„// START^EXTRACriON"* kennzeichnet den.Beginn eines zu extra- 
hierenden Codes. 

„// END^EXTRACTION'' kennzeichnet das Ende eines zu. extrahie- 
renden Code. 

In einem solchen Fall ist die Einheit zur Umsetzung des Pro- 
gramms in Konfigurationscodes dazu ausgebildet, die Hints be- 
ziehungsweise Umset2ungsvorgaQ>en zu erkennen. 

£s ist auch moglich, dafi zur Extraktion durch Auf ruf von NML- 
Routinen* Telle des PROGRAMMES direkt in NML inqplementiert wer 
den \md 14: die NMLrRoutxnen dure^ (calls) gespriangen 

wird. Beispielsweise erfolgt dies derart: 

a) NML- Code 

proc.edure EXAMPLE 
begin 

end 
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b) PROGRAMM Code 
Code 



call isXAMPiiE // Axif ruf des NML-Codes 

Code 

In diesem Fall ist die Einheit zur Umsetzung dazu ausgebildet, 
NML-Programmteile, das hei£t Progranimteile zur Ausfuhning in 
vmd/oder auf einem rekonfigurierbaren Array in ein grSlSeres 
Programm einzubinden. 

Es ist welter altemativ und/oder zusatzlich eine Extraktion 
aus einer objektorientierten Klasse mdglich. Fiir eine VPU ge- 
eignete Makros werden als Klasse in der Klassenhierarchie ei- 
ner objektorientierten Prograininiersprache definiert. Die Ma- 
kros kdnften dabel durch Annotation derart gekennzeichnet sein, 
dafi sie als fur eine VPU bestimmte Codes erkannt und entspre- 
chend - auch in hpheren Hierarchiien der Sprache - weiterverar- 
beitet werden. 

Iimerhalb eines Makros ist bevorzugt eine. bestimmte Vemetzung 
und/oder' Abbildung durch das Makro vorgegeben, die sodann die 
Abbildung des Makros auf die VPU bestiramt. 

Durch die Instantlierung und Verkettxing der Klasse entsteht 
eine Impleinentierung der Funktion, bestehend aus mehreren Ma- 
kros auf der VPU. Mit anderen Worten definiert die Instantlie- 
rung und Verkettung der Makros die Abbildvuig und Vemetzung 
der einzelnen Operationen aller Makros auf der VPU und/oder 

12 



wo 02/103532 PCT/EP02/06865 

ggf . die Vernetzung iind/oder den Datenaustausch zwischen VPU 
und CPU. 

Die Interfacecodes werden bei der Instantiieanjng hinzugeffl^ 
Die Verkettxing beschreibt das detaillierte Mapping der klasse 
auf die VPU. 

Eine Klasse kann beispielsweise auch als ein Aufruf einer Oder 
mehrerer NML-Routinen gebildet werden. 



a) Klassen-Cdde 

class EXAMPLE 
begin 

end 

b) PROGRAMM Code 

Code 

• * • 

EXAMPLE var O. II Ihstantiierung der Klasse \ 

Code 

• • • . 

Es ist weiter auch eine Exti:aktion durch Analyse mSglich. 
Durch an die jeweilige VPU angepaSte Analysemethoden werden 
Teile innerhalb des PROGRAMMES erkannt, die effizient und/oder 
sinnvoll auf die VPU abbildbar sind. 
Diese Teile werden aus dem PROGRAMM extrahiert. 
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Eine beispielsweise f\ir viele VPUs geeignete Analysemethode 
ist der Aiif bau von Datenfiufi- imd/oder KontrollflviSgraphen aUs 
dem PROGRAMM. Diese Graphen kohnen hinsichtlich ihrer m6gli- 
Chen Partitionierung und/oder Abbildung auf die Ziel-VPU auto- 
itiatisch uritersucht werden. In diesem Pall werden die Telle der 
generierten Graphen bzw. die ehtsprechenden PROGRAMMTEILE, ex- 
trahiert, die sich hinreichend gut partitionieren und/oder ab- 
bilden lassen. Hierzu kann eine Partitionierbarkeits- und/oder 
Abbildbarkeitsanalyse erfolgen, die die jeweilige Eigenschaft 
bewertet Entsprechend dieser Bewertung erfolgt dann die Parti - 
tionierxing und Extraktion der Programmteile auf die VPU, sowie 
das Einfuhren der vorgesehenen Interfaces. . 

Es soil ausdriicklich auf die in der Patentanmeldung DE 101 39 
170.6 beschriebenen Analysemethoden verwiesen werden, die bei- 
spielsweise zur Anwendung kommen kdnnen. Die vorerw^hnte An- 
meldung ist zu Of fenlegungszweckung vollumfanglich eingeglie- 
dert. 

Eine mogliche Analysemethode ist auch durch Erkennung bestiiran- 
ter Datentypen gegeben. 

Unterschiedliche Datentypen eignen sich mehr oder weniger gut . 
fur die Bearbeitung auf einer VPU. Beispielsweise ist eine 
komplexe Pointer-Arithmetik, bzw. eine point erbasierende Da- 
tenadressierung (pointer) schwer auf eine VPU abbildbar, wah- 
rend sich Arrays (array) sehr gut abbilden lassen.. 

Erf ind\ingsgemas kdnnen daher weitgehend automat isch oder manu- 
ell die jeweils geeigneten Datentypen und zumindest wesentli- 
che Teile von deren Datenverarbeitung auf eine VPU ilbertragen 
und entsprechend extrahiert werden. Die Extraktion erfolgt da- 
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mit im Ansprechen auf das Auftreten bestitnmter Datentypen 
und/oder Datenoperationen. 

Es soli erwShnt werden, daS zusttzliche, den Datentypen 2uge- 
ordnete Parameter weitere Hinweise zur Bestimraung der Ausfdhr- 
barkeit und/oder Ausfuhrungsperformande au£ einer VPU geben 
konnen und daher maSgeblich zur Extraktion mitverwendet werden 
konnen. Beispielsweise spielt die GrdSe von zu berechnenden 
Arrays eine wesentliche Rolle. Es lohnt sich zuraeist nicht, 
kleine Arrays auf einer VPU zu berechnen, da hier der Synchro- 
nisations- \ind Datenaustauschaufwand zwischen CPU und VPU zu 
hoch sein kanxi. Einschrankend ist aber dabei wiederum zu er- 
wahnen, daS kleine Arrays, die innerhalb einer Schleife beson- 
ders hSuf ig verrechnet werden, sich dennoch sehr gut fdr VPUs 
eignen, insofem die Schleife weitestgehend komplett auf der 
VPU berechnet wird. GroBe Arrays kdnnen dagegen zumeist ohne 
weiteres auf einer VPU besonders performant berechnet werden. 

Weiterhin soil erwShnt werden, dafi besondere Datentypen durch 
einen besonders angepafiten Compiler Oder ggf. durch einen An- 
wender (z. B. mittels TYPE in Pascal) erstellt werden k6nnen, 
die sich besonders fiir VPUs eignen und deren Datenverarbeitung 
daim auf einer VPU ausgefahrt wird, 
Beispielsweise kSnnen folgende Datentypen bestehen: 
TYPE streaml of Byte [] ; 
TYPE stream2 of Byte 10..255; 

Stream definiert einen Datenstrom (stream)- von in der Regel 
groSer,. ggf . nicht vorbekannter und/oder unendlicher Lange. • 
Streaml hatte hier eine nicht vorbekannte LSnge. Beispielswei- 
se konnte ein mit diesera Datentyp programmierter FIR-Filter 
(Oder z. B. eine FFT oder DCT) automatisch - und ggf ausge- 

walzt - auf eine VPU abgebildet werden. Die Rekonf iguration 
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erfolgt dann typisch vind bevorzugt im Ansprechen auf andere 
Mechanismen als den Datenstromverlauf, z.b. durch Zahler, Ver- 
gieicher, CT-gesteuert und/oder durch Time -Out. Soil hierbei 
etwa eine Wave- oder andere Rekonf iguration ausgeldst werden, 
so kann diese i^er eine dUrch vorgenannte Methoden veranlaSte 
Kehhzeichnxing eines Datehpaketes, insbesohdere Datenbytes, als 
ein letztes zu sein erfolgen um nach uiid/oder mit dem Durch- 
lauf dieses als letzes Datenpaket gekennzeichneten Datenpake- 
tes die Rekonf iguration auszulosen. 

stream2 definiert einen Datenstrom der Lange von hier 256 
Byte, der wie streaml behandelt werden kann, jedoch die Bigeh- 
schaft aufweist, nach 256 Byte zu enden und damit nach Beendi- 
gimg moglicherweise eine Rekonf iguration im Sinne der vorab 
zitierten Patente selbigen Anmelders ausldsen kann. Insbeson- 
dere kann eine Wave -Rekonf iguration (z. B- nach DE 197 04 
728.9, DE 199 26 538.0, DE 102 06 857.7, DE 100 28 397.7) mit 
dem Bintreffen des letzten Daten-Bytes ausgeldst werden und 
mit der Verarbeitung dieses letzten Daten-Bytes die jeweilige, 
das Byte verarbeitende PAE rekonf iguriert werden. 

Eine tax die implement ierte VPU geeignete Obersetziing des ex- 
trahierten Qodes nach NML kann bevorzugt durchgefuhrt werden. 

Fur datenf luiSorientierte VPUs kann beispielsweise autpmatisch 
ein Datenf luS- und/oder Kontrollf luSgraph aufgebaut warden. 
Die Graphen werden daim in NML-Code iibersetzt. 

Entsprechende Code-Teile wie z. B. Schleifen kdnnen mittels 

einer Datenbank (Lookl^) Ckbersetzt werden oder gewdhnliche 

Transformationen kSnnen durchgefiihrt werden. Fdr Codeteile 

k6nnen auch Makros vorgesehen sein, die dann gemSS den in vor- 

genannten Anmeldungen offenbarten IKR weiterverwendet werden. 
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Ebenfalls kann die Modularisierung nach PACT13, Fig. 28 unter- 
stiitzt werden. 

Gegebenenfalls kann bereits das Abbilden au£ die VPU bzw. des- 
sen Vorbefeituhg ^rfblgen, beispielsweise mittels der Durch- 
fiihrung des Plazierens der benotigten Ressourcen iind des Rou- 
tens der Verbindimgen (Place and Route) . Dies kann zum Bei- 
spiel nach per se bekannten Regeln des Plazierens und Routens 
geschehen. 

^s ist auch moglich, mittels einer automatischen Analyseinetho- 
de den extrahierten Code iind/oder den (ibersetzten NML-Code auf 
seine Verarbeitungsef f izienz bin zu analysieren. Dabei ist die 
Analysemethode bevorzugt so gewahlt, daS der Interface -Code 
und die daraus entstehenden Performanceeinflusse an geeigneter 
Stelle mit in die Analyse einflieEen. Geeignete Analyseverfah* 
ren sind insbesondere in den vorgencuinten Anmeldungen der vor- 
liegenden Anmelderin beschrieben. 

Gegebenenfalls wird die Analyse durch eine komplette Uberset- 
zxing und Imp lementie rung auf dem Hardware -System durchgef uhrt , 
indem das PROGRAMM auisgefOlirt und mit ge.eigneten Metho.den/ wie 
sie beispielsweise nach dem Stand der Technik bekannt sind, 
vermessen wird. 

Es ist weiter moglich, daS basierend auf den durchgefiihrten 
Analysen, verschiedene durch die Extraktion fQr eine VPU ge- 
wahlte Telle als ungeeignet identifiziert werden konnen. Uroge- 
kehrt kaiui die Analyse ergeben, daiB bestimmte, fUr einen PRO- 
2ESS0R extrahierte Telle zur Ausfuhrung auf einer VPU geeignet 
waren . 
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Eine optionale Schieife, die nach der Analyse basierend auf 
geeigneten Entscheid\ingskriterien zurOick in den Extraktions- 
teil f\ihrt, urn diesen mit entsprechend der Analyse angeipafiten 
Extraktionsvprgaben erneut auszufuhren, ermoglicht die Opti- 
mierung des t)berset:z\jngsergebhisses. Man hat somit eine Itera- 
tion. Dieses Vorgehfen ist bevorzugt . 

Eine Schieife kann an mehreren imterschiedlichen Stellen in 
den Compilerlauf eingebracht sein, 

Der erhaltene NML-Code ist bei Bedarf entsprechend den Eigen- 
schaften der yerwendeten VPU zu partitibniereri, in ein- 

zelne Teile zu zerlegen, die auf jeweils in die vorhandenen 
Ressourcen abgebildet werden konnen.. 

Eine Vielzahl derartiger Mechanismen, insbesondere auf Gra- 
phensuialyse basierende, sind nach dem Stand der Technik per se 
bekannt. Eine bevorzugt e Variante basiert jedoch auf der Ana- 
lyse der Programmsourcen und ist unter dem Begrif f temporal 
Partitioning bekannt- Dieses Verfahren ist in der genannten 
PHD-Thesis von Cardoso beschrieben, die zu Of fenbarungszwecken 
vollumfSnglich eingegliedert wird. 

Partitionierungsverfahren gleich welcher Art sind entsprechend 

des verwendeten VPU-Types zu adapt ieren. Liegen VPUs vor, die 

die Speicherung von Zwischenergebniss^n in Register \ind/oder 

Speicher zulassen, ist durch die Partitionieriing die Einbin- 

d\mg der Speicher zur Speicherung von Daten und/oder ZustSnden 

zu beriicksichtigen. Die Partitionierungsalgorithmen (z. B. die 

temporale Partitionierung) sind entsprechend zu adapt ieren. 

Gewohnlicherweise wird die eigentliche Partitioniervuig und das 

Scheduling durch die genannten Patente jedoch erheblich ver- 

einfacht und erst sinnvoll ermoglicht. 
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Manche VPUs bieten die Mdglichkeit der differentieilen Rekon- 
figuration. Diese kaim angewendet warden^ wenn nur verhSltnis- 
tt&&ig wenige Andeningen innerhalb der Anordnung der PABs bei 
einer Rekonfiguratioii notwendig werden* Mit anderen Worten 
werden riur die Verandenmgen eiher Kohf iguration gegenflber der 
aktuellen Konf iguration rekonf iguriert . Die Partitionierung 
kann in diesem Fall dergestalt sein, daS die auf eine Konfigu- 
ration folgende, gegebenenfalls dif f erentielle Konf iguration 
nur die notwendigen Rekonf igur at ionsdaten enthalt xind keine 
vollstandige Konf iguration darsteilt. Es ist moglich, den Kon- 
f igurationsdateinoverhead zu Analysezwecken bei der Beurteilxmg 
der Aufteilungseffizient mit zu berucksichtigen. 

Die Schedulingmechanismen far die partitionierten Codes kdnnen 
derart erweitert werden, daS das Scheduling durch RGckmeldun- 
gen der VPU an die jeweils rekonf igurierende Einheit (CT 
und/oder HOSTRECONP) gesteuert wird. Insbesondere wird dabei 
bei der Partitioniervmg die sich daraus ergebende Mdglichkeit 
der bedingten Ausfuhrung, d. h. der expliziten Bestimmung der 
nachfolgenden Partition durch den Zustand der aktuellen Parti- 
tion genutzt. Mit anderen Worten ist es moglich, die Partitio- 
nierung derart zu opt imieren, dafi bedingt.e Ausf Ahrungen * wie z . 
B. IP, CASE etc, berucksichtigt werden. 

Werden VPUs verwendet, die die Pahigkeit besitzen Statussigna- 
le zwischen den PABs zu flbertragen, wobei PAEs auf die jeweils 
iibertragenen ZustSnde reagieren und/oder diese mitverarbeiten, 
kann innerhalb der Partitionierung und des Schedulings zudem 
die bedingte Ausfuhr\ing innerhalb der Anordnung der PAEs, also 
ohne die Notwendigkeit einer vollstSndigen oder teilweisen Re- 
konf iguration aufgrund eines geanderten bedingten Pro- 

grammablauf s, bericksichtigt werden. 
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Weiterhin kann das Scheduling die Mdgiichkeit des Vorladens 
von Konf igurationen wShrend der Lauf zeit einer anderen Konfi- 
guration unterstiitzen. Dabei kdnnen mehrere Konfigurationen 
mdglicherweise auch spekulativ vorgeladen werden, d. h. ohne 
dafi sichergestellt ist, daS die Konfigurationen flberhaupt be- 
notigt werden. Durch Selektionsmechanismen konnen dann zur 
Laufzeit die zu verwendenden Konfigurationen ausgewahlt werden 
(siehe auch Beispiel NLS in DE 100 50 442.6, EP 01 102 674.7) 

Eine zusatzliche oder alternative Variante. sieht vor, dass die 
Datenverarbeitung innerhalb der an die CPU gekpppelten VPU ex- 
akt gleichviele Takte benotigt, wie die Datenverarbeitung in- 
nerhalb der Rechenpipeline der CPU. Insbesondere bei modemen 
Hochleistungs-CPUs mit einer Vielzahl von Pipelinestufen (>20) 
kann dieses Konzept ideal eingesetzt werden. Der besondere 
Vorteil ist, dass keine besonderen Synchronisationsmechanismen 
wie z.B. RDY/ACK notwendig sind und/oder keine Anpassung von 
Opcodes zur Registersteuerung erforderlich ist. Der Compiler 
hat bei diesem Verfahren sicherzustellen, dass die VPU die er- 
forderliche Anzahl an Takten einhalt und ggf . die Datenverar- 
beitung diirch das Einfugen von Verzdgerungsstufen wie z.B. 
einen Fall-Through FIFOs auszubalancieren wie er in anderen, . 
vorerwShnten Anmeldxingen bescbrieben ist. 

Der ausgegebene Code ist ublicherweise vollstSndig und bevor- 
zugt ohne weitere Eingriffe auf den jeweils nachfolgenden Com- 
pilem verarbeitbar. Gegebenenfalls kdnnen Compilerf lags und 
Constraints zur Steuerung nachfolgender Compiler generiert 
werden, wobei der Anwender falls gewunscht. optional eigene 
Vorgaben hinzufiigen und/oder die generiert en Vorgaben modifi- 
zieren kcuui. Die nachfolgenden Compiler ben6tigen keine we- 
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sentlichen Modif ikationen, so daS per se bekannte Standard- 
Tools prinzipiell einsetzbar sind. 



Das yorg€;schlagene Verfjahren eignet ; sich somit 
insbesondere als Priprozessor bzw. Pr&prozessorverfahren vor 
Compiiem xxnd iBntwicklungssystemen. Es soli^er ausdrxicklich 
erwahnt warden, daS prinzipiell anstatt und/oder zusatranen mit 
den zuvor beschriebenen Ubersetzers auch Compiler nach PACTll 
eingebiinden werden koimen . - 

An die beschriebene Architektur, insbesondere direkt an die 
VPU kann ein FPGA. gekbppelt sein, um feingraniilare Datenyerar- 
beitung zu ermdglichen und/oder ein f lexibel adaptierbares In< 
terface (z.B. diverse serielle Schnittstellen (V24, USB, 
etc), diverse parallele Schnittstellen, Festplattenschnitt- 
stellen, Ethernet, Telekomtminikationsschnittstellen (a/b, TO, 
ISDK, DSL, etc)) zu weiteren Baugruppen zu ermdglichen. 
Der FPGA kann dabei aus der VPU- Architektur, insbesondere 
durch die CT, und/oder durch die CPU konfiguriert werden. Der 
FPGA kcurn statisch, also ohne Rekonf iguration zur Laufzeit 
und/oder dynamisch, also mit Rekonf iguration zur Laufzeit, be 
trieben werden. 

Es wurde bereits das Vorsehen eines Interface-Code cingespro- 
Chen. Der Interface -Code, der in den extrahierten Code einge- 
setzt wird, kann durch unterschiedliche Verfahren vorgegeben 
werden. Bevorzugt wird der Interface -Code in einer Datenbank 
abgelegt, auf die zugegriffen wird. Die Einheit zur Umsetzung 
kann so ausgebildet sein, da& sie eine Auswahl, etwa des Pro- 
grammierers, berflck'sichtigt , bei der beispielsweise durch Hin 
weise im PROGRAMM Oder durch Compilerf lags der passende Inter 
face-Code ausgewahlt wird. Dabei kann ein fur das jeweils ver 
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wendete Implementierungsverfahren des VPU/CPU-Systeras geeigne- 
ter Interface-Code gewaihlt werden.. 

Die Datenfaank selbst kann durch unterschiedliche Methoden auf- 
gebaut void gewartet werden. Einige Beispiele sollen zur Ver- 
deutlichung der MSglichkeiten; ahgef<ihrt Werden : 

a) Der Interface -Code kann vom Lieferanten des Compilers fur 
bestimmte Verbindungsverf ahren zwischen VPU und CPU(s) 
vorgegeben warden. Dies kann bei der Organisation der Da- - 
tenbank berucksichtigt werden, indem entsprechende Spei- 
chermittel fur diese Angaben bereitgehalten werden. 

b) Der Interface-Code kann vom Benutzer> der den Systemaufbau 
best iramt hat, selbst geschrieben oder aus bestehenden 
(Beispiel-) Interface-Code modifiziert und der Datenbank 
zugefugt werden. Das Datenbankmittel wird hierzu bevorzugt 
benutzermodifizierbar gestaltet, urn dem Benutzer die Da- 
tenbankmodifikation zu ermdglichen. 

c) Der Interface -Code kann von eine Entwicklungssystem, mit 
dem beispielsweise der Systemaufbau des VPU- CPU- Systems 
geplant und/oder beschrieben und/oder getestet wurde, au- 
tomatisch generiert werden. 

Der Interface -Code ist gewohnlicherweise bevorzugt derart ge> 
staltet, daS er den Anf orderungen- der Programmiersprache ent- 
spricht, in der der extrahierte Code vorliegt in den der In- 
terface-Code eingefiigt werden soil. 

Debugging und Integration der Toolsets 

In die Interface -Codes kdnnen Kommunikationsroutinen einge- 
fiihrt werden, urn die unterschiedlichen Entwicklungssysteme ffir 
PROZESSOR und VPU zu synchronisieren. Insbesondere kann Code 
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fur die jeweiligen Debugger (z. B. nach PACTll) aufgenommen 
werden, 

Der Interface-Code ist. so ausg^ dafi er den Datenaus- 

tausch zwischen PROZESSOR und VPU ermoglicht und/oder steuert. 
Er ist daher eine geeigiiete und bevorzugte Schnittistelle, ixm 
die jeweiligen Entwicklungssysteme und Debugger zu steuem. Es 
ist beispielsweise moglich, einen Debugger f\ir den PROZESSOR 
isolange zu aktivieren, wie die Daten von dem Prozessor verar- 
beitet werden. Sobald die Daten iiber den Interface-Code an ei- 
ne (oder mehrere) VPU ubergeben werden, ist ein Debugger fur 
yPUs zu aktivieren. Wird der Cpde zurflck an den PROZESSOR ge- 
sendet, soil wiederum der PROZESSOR-Debugger aktiviert werden. 
Es ist daher also mdglich und bevorzugt, derartige Ablaufe 
durch das EinfCigen von Steuercodes fUr Debugger und/oder Ent- 
wicklungssysteme in den Interface -Code abzuwickeln. 

Die Kommunikation und Steuerung zwischen den unterschiedlichen 
Entwicklungssystemen soil daher bevprzugt mittels in die In- 
terface-Codes von PROZESSOR und/oder VPU eingebrachte Steuer- 
codes abgewickelt werden. Die Steuercodes konnen dabei beste- 
henden Stamdards fur die Steuerung ' von BntwicklungssystBihen 
weitgehend entsprechen. 

Die Verwaltung und Kommunikation der Entwicklungssysteme wird 
vorzugsweise wie beschrieben in die Interface -Codes abgewik- 
kelt, .kann jedpch - sofem sinnvoll - auch getrennt von die- 
sen, nach einem entsprechenden ahnlichen Verfahren abgewickelt 
werden. 

In vielen Programmiersprachen, besonders in sequent iellen wie 

z. B. C, wird eine.exakte zeitliche Reihenfolge implizit durch 

die Sprache vorgegeben. Bei sequentiellen Programmiersprachen 
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geschieht dies beispielsweise durch die Reihenfolge der ein- 
zelnen Anweisungen. Sofern durch Programmiersprache und/oder 
den Algorithmus erforderlich, lafit sich die Zeit information 
auf Synchronisationsmodelle wie RDY/ACK und/oder REQ/ACK Oder 
ein Time-Stamp-Verfahreh abbilden. ' 

Beispielsweise wird eine nachfolgende for-Schleife nxir dann 
durchlaufen und iteriert; werni eine Variable, hier input stream 
je Durchlauf mit einem RDY quittiert ist. Bleibt RDY aus, wird 
der Schleifendurchlauf bis zum Eintreffen RDY angehaltem 

while TRUE- 
s :a= 0 

for i: 1 to 3 

s := s + inputstream; 

Die Eigenschaft der sequentiellen Sprachen, nur von der Be- 
f ehlsverarbeitimg gesteuert zu werden, wird mit dem Datenf luS- 
prinzip die Verarbeitung durch den Datenstrom, bzw. die Bxi- 
stenz von Daten zu steuem verbunden. Mit anderen Worten wird 
ein Befehl und/oder eine Anweisung (z. B. s:= s + 
inputstream;) nur verarbeitet, wenn die Operation ausgefiihrt 
werden kann uiid die Daten verffigbar sind. 

Bemerkenswert ist, dafi dieses Verfahren gewohnlicherweise zu 
keiner Andening der Syntax oder Semantik einer Hochsprache 
fflhrt. 

Komplexere Fxmktionen einer Hochsprache, wie z. B. Schleifen, 
werden durch Makros realisiert. Die Makros werden vom Compiler 
vorgegeben und zur Obersetzungszeit instantiiert • 
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Die Makros sind entweder aus einfachen Sprachkonstnikten der 
Hochsprache Oder auf. Assembler level aufgebaut. Makros konnen 
parametriert sein, uni eine elnfach Adaption an den beschriebe- 
nen Algorithraus zu erm6glichen. (vgl. auch PACTll) 

Bin Standardprozessor z.B. ein RISC, CISC, DSP (CPU) wird ailso 
mit einera rekonf igurierbaren Prozessor (VPU) gekoppelt. 

Zwei unterschiedliche, bevorzugt jedoch auch zugleich imple- 
mentierbare Koppliingsvarianten konenn wie folgt beschrieben 
■sein; . • 

Eine erste Variante sieht eine direkte Ankoppel\mg an den Be- 
fehlssatz einer CPU vor (Befehlssatzkopplung) . 
Eine zweite Variante sieht eine Ankoppelung iiber Tabellen im 
Hauptspeicher vor* Es sind also Tabellenmittel vorgesehen. 

Inixerhalb eines Instruktionssatzes (ISA) einer CPU sind £iir 
gewohnlich freie xinbenutzte Befehle vorhanden, Einer oder eine 
Mehrzahl dieser freien iinbenutzen. Befehle wird nunmehr fiir die 
Steuening von VPUs verwendet (VPUCODE) . 

Durch die Dekodierung eines VPUCODEs* wird eine Konf igurations- 
einheit (CT) einer VPU angesteuert die in Abhangigkeit des 
VPUCODEs bestiramte. AblSuf e ausfuhrt. Es ist also eine zur VPU- 
Decodierung coisprechbare CT vorhanden. 

Beispielsweise kann ein VPUCODE das Laden und/oder Ausfiihren 
von Konfigurationen durch die Konf igurationseinheit (CT) fiir 
eine VPU ausldsen. 
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In einer erweiterten Ausfuhrting kaim ein VPUCODE uber eine 
Obersetzungstabelle, die bevorzugt von dier CPU, alternativ 
aber avzch von der bder eirier VPU oder einer externen Einheit 
aus yerwaltet wiridi, auf unterschiediiche VPU-Koininandos fiber- 
setzt werden 

Die Konfigurationstabelle kann in AbhSngigkeit von dem ausge- 
ffihrten CPU Programm oder Codeabschnitt gesetzt werden. 

Die VPU ladt nach Eintreffen eines Ladekommandos Konf iguratio- 
nen aus einem eigenen oder mit der CPU geteilten Speicher. 
Insbesondere kann eine VPU- Konf igurati on im Code des aktuell 
ausgefuhrten CPU-Prograiranes beinhaltet sein, 

Nach Erhalt eines Ausfuhrungskoiranandos ffihrt eine VPU die aus- 
zufiihrende Konf igurat ion aus und die entsprechende Datenverar- 
beitung durch. Das Beenden der Datenverarbeit\ing kann durch 
ein Terminierungssignal (TERM) an die CPU angezeigt werden. 
Dazu sind entsprechende Signal lei tungen/ Interrupt -EingSnge 
usw. vorhanden und/oder; ausgebildet. 

Das Auftreten eines VPUCODEs konnen solange Wartezyklen auf 
der CPU ausgeffihrt werden, bis das Terminierungssignal (TERM) 
der Beendigung- der Datenverarbeitung von der VPU eintrif f t . 

In einer bevorzugten Ausgestaltung wird rait der Verarbeitung 
der nSchsten Codes fortgefahren. Tritt ein weiterer VPUCODE 
auf, kann sodaim auf die Beendigung des vorhergehenden gewar* 
tet werden, oder sSmtliche gestartete VPUCODEs werden in einer 
Verarbeitungspipeline eingereiht, oder ein Taskwechsel wird 
insbesondere wie nachfolgend beschrieben ausgeffihrt. 
Die Beendigung einer Datenverarbeitung wird durch das Eintref- 
fen des Terminierxmgssignal (TERM) in einem Statusregister si- 
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gnalisiert. Die Termini erxmgssignale treffen in der Reihenfol- 
ge einer m6glichen Verarbeitungspipeline eih. 



Die Datehverarbeituhg auf der CPU kann durch das Testeh des 
Statusfegisters auf das Eihtreffen eines terniiniierungssighaies 
synchronisiert werden. 

In einer moglichen Ausgestaltung kann, sofem eine Applikation 
vor dem Eintreffen von TERM z.B. durch Datenabhangigkeiten 
nicht fortgesetzt werden kann, ein Taskwechsel ausgelost wer-. 
den. 

Es ist bevorzugt, wenn lose Kopplungen zwischen. Prozessoren 
und VPUs aufgebaut sind, bei welchen VPUs weitestgehend als 
unabhangige Coprozessoren arbeiten. 

Eine derartige Kopplung sieht eine Oder mehrere gemeinsame Da- 
tencpiellen und -senken, zutneist ilber gemeinsame Bussysteme 
und/oder gemeinsame Speicher vor. fiber DMAs und/oder andere 
Speicherzugrif fskontroller werden Daten zwischen einer CPU und 
einer VPU ausgetauscht . Die Synchronisation der Datenverarbei- 
tung erfolgt bevorzugt <iber eine Interiruptsteuening oder. einen 
Statusabf ragemechanismus (z . B . Polling) . 

Eine enge Ankopplung entspricht der vorab beschriebenen direk- 
ten Ankopplung einer VPU in den Befehlssatz einer CPU. 

Bei einer direkten Rechenwerk-Ankopplung ist besonders auf ei- 
ne hohe Rekonf igurationsperforraance zu achten. Bevorzugt kann 
daher die Wave -Rekonf igurat ion zum Einsatz koramen. Desweiteren 
werden die Konf igurationsworte bevorzugt vorab derart vorgela- 

den, dass bei Ausfihrung des Befehls die Konf iguration beson- 
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ders schnell (mittels Wave-Reconfiguration im Optimalfall in- 
he:rhalb eines Taktes) konfiguriert werden kanri. Im librigen wa- 
re auch moglich, anstelle exner Array-Teilkohfiguration bei 
hoch performanten, insbesondere aber auch bei aiberwiegend nie- 
derpetformanten Anwendungen ihehrere insbesondere identische 
Arrays vbrzusehen, von diesen wenigstens eines fur eine neue 
Task umzukonfigurieren, insbesondere im Vorgriff , und dann 
nach Bedarf anstelle eirier Umkonf iguration oder Teilumkonf igu- 
ration eines integralen multidimensionalen partiell zur Lauf- . 
zeit rekonf igurierbaren grobgranularen Feldes einfach auf ein 
anderes Array vollstandig zu wechseln. Signale kdnnen dabei z. 
B. uber MUX-/Demuxstufen den Teilarrays zugefuhrt werden, ins- 
besondere I/O-, Daten-, Status- und/bder Trigger signale. 

Fflir die Wave -Reconfiguration werden bevorzugt die voraussicht- 
lich auszufuhrenden Konf igurationen vorab durch den Compiler 
zur Compilezeit erkannt und zur Lauf zeit entsprechend vorgela- 
den. 

Zum Zeitpunkt der BefehlsausfCihrxmg wird die entsprechende 
Konf iguration gegebenenfalls filr jede PAE einzeln und/oder f<ir 
eine PAE-Teilmenge einzeln selektiert und ausgefuhrt. Auch 
derartige Verfahren sind nach den o.g. Schriften bekannt . . . 

Eine bevorzugte Implement ie rung kann unterschiedliche Daten- 
tremsfers zwischen einer CPU und VPU yorseheni Drei besonders 
bevorzugte einzeln oder kotnbiniert einsetzbare Methoden werden 
nachfolgend beschrieben. 

Bei eirjer Registerkopplung kann die VPU Daten aus einera CPU- 
Register entnehmen, verarbeiten und in ein CPU-Register zu- 
rQckschreiben . 



28 



wo 02/103532 PCT/EP02/06865 

Bevorzugt werderi Synchronisationsmechanismen zwischen der CPU 
und der VPU eingesetzt. 

Beisplelsweise kann die VPU durch das Einschreiben der Daten 
in ein CPU-Register durch die CPU ein RDY-Signal erhalten und 
daraufhin die eingeschriebenen Daten verarbeiten. Das Ausl^seri 
von Daten aus einem CPU-Register durch die CPU kann ein ACK- 
Signal generieren, wodurch die Datenabnahme durch die CPU der 
VPU signalisiert wird. Die Verwendung des per se bekannten 
RDY/ACK-Protokolls in unterschiedlicher Auspragung ist vorlie- 
gend gerade bei grobgranularen Zellen der rekonf igurierbaren 
Eiriheiten vorteilhaft. 

CPUs stellen typischerweise keine entsprechenden Mechanismen 
2ur Verfugung. 

Zwei m5gliche Ldsxingen werden naher beschrieben: 

Ein einfach zu realsierenden Ansatz ist, die Datensynchronisa- 
tion uber ein Statusregister durchzuf flhren . Beispielsweise 
kann die VPU das erfolgte Auslesen von Daten aus einem Regi- 
ster und das damit verbundene ACK-Signal und/oder das Ein- 
schreiben, vpri Daten in ein Register uiid das damit verbundene 
RDY-Signal in dem Statusregister anzeigen. Die CPU testet zu- 
nachst das Statusregister und ffthrt beispielsweise so lange 
Warteschleifen oder Taskwechsel aus, bis - je nach Operation - 
das RDY Oder ACK eintraf . Danach fuhrt die CPU den jeweiligen 
Registerdatentransfer aus. 

In einer erweiterten Ausgestaltung wird der Befehlssatz der. 

CPU urn load/store-lnstruktionen mit integrierter Statusabfrage 

(load_rdy, store_ack) erweitert. Beispielsweise. wird bei einem 

store_ack nur dann ein neues Datenwort in ein CPU-Register ge- 
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schrieben, wenn das Register vorher von der VPU ausgelesen 
wurde und ein ACK eintraf . Entsprechend liest load_rdy nur Da- 
ten aus einem CPU-Register, wenn die VPU vorher neue Daten 
eingeschrieben \ind ein RDY generiert hat. 

Daten, die zu eiher auszufuhrehdeii Kohfiguratioh gehdreh kon- 
nen sukzessive, quasi durch Block-Moves Shnlich wie nach dem 
Stand der Technik in die CPU-Register geschrieben tind/oder aus 
diesen gelesen werden. Ggf . implement ierte Block-Move- 
Instruktionen konnen bevorzugt durch die beschriebene inte- 
grierte RDY/ACK Statusabfrage erweitert werden- 

Es ist of fensichtlich, dass eine Vielzahl von leichten Modifi- 
kationen xmd unterschiedlichen Ausgestaltungen dieses Grund* 
verfahrens m6glich sind. 

Die bereits erwAhnte Wave-Rekonf iguration erlaubt das Starten 
eines neuen VPU-Befehls und der entsprechenden Konf iguration, 
sobald die Operanden des vorhergehenden VPU-Bef ehls aus den 
CPU-Registem aibgenommen wurden. Die Operanden fur den neuen 
Befehl konnen direkt nach Befehlsstart in die CPU- Register ge^. 
schrieben werden. 

Entsprechend des Wave-Rekonf iguration-Verfahrens wird die VPU 
successive mit Fertigstellung der Datenverarbeitung des vorhe- 
rigen VPU-Bef ehls fflr den neuen VPU-Bef ehl umkonf iguriert und 
die neuen Operanden verarbeitet. 

Weiterhin konnen Daten zwischen einer VPU und einer CPU durch 
geeignete Buszugrif fe auf gemeinsame Ressourcen ausgetauscht 
werden . 
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Sofern Daten ausgetauscht werden sollen> die kurz zuvor von 
der CPIJ verarbeitet wurden xmd daher voraussichtlich noch im 
bevorzugrt vorzusehenden Cache der GiPU liegen bzw. sofort an- 
schliessend von der CPU verarbeitet werden und daher sinnvol- 
leifweise in den Cache dier CPU geiegt werden, werden diese be- 
vbx^zugt vbii der VPU axis detti Cache der CPU gel^sen, bzw. in den 
Cache der CPU geschrieben. Dies kann durch geeignete Analysen 
weitestgehend vorab zur Compilezeit der Applikation durch den 
Compiler festgestellt nnd der Binarcode entsprechend generiert 
werden. 

Sofern Daten ausgetauscht werden spllen/ die sich voraussicht- 
lich nicht im Cache der CPU befinden bzw. voraussichtlich 
nicht nachfolgend im Cache der CPU benStigt werden, werden 
diese bevorzugt von der VPU direkt vom externen Bus und der 
damit verbundenen Datenquelle (z.B. Speicher, Peripherie) ge- 
lesen, bzw. an den externen Bus und der damit verbundenen Da- 
tensenke (z.B. Speicher, Peripherie) geschrieben. Dies kann 
durch geeignete Analysen weitestgehend vorab zur Compilezeit 
der Applikation durch den Compiler festgestellt und der Binar- 
code entsprechend generiert werden. 

Bei .einem Transfer \iber den Bus am Cache vorbei wird beyorzugt.- 
ein Protokoll zwischen Cache und Bus irapleraentiert , das fdr 
einen korrekten Inhalt des Caches sorgt. Beispielsweise kann 
das bekannte MESI-Prptokoll nach dem Stand der Technik hierzu- 
verwendet werden. 

Die beschriebenen Verfahren mflssen zimtchst keinen besonderen 
Mechanismus filr die Unterstfltzung von Betriebssystemen vorse- 
hen.Es ist nSmlich bevorzugt, sicherzustellen, dass ein aus- 
zufiihrendes Betriebssystem sich entsprechend des Status einer 
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zu unterstutzenden VPU verMlt, was moglich ist und wozu ins- 
besbndere' Schediileir vorgeseKen seiri kSnheri. - 



Bei eirier engen Rechenwerkkopplung wird bevorzugt das Status- 
register der CPU abgefragt, in welches die angekoppelte VPV 
ihren Datenverarbeitungsstatus (Teinniiiierungssignal) eintrSgt . 
Soil eine weitere Datenverarbeitung an die VPU ubertragen wer- 
den, \ind die VPU hat die vorherige Datenverarbeitung noch 
nicht beendet wird gewartet und/oder bevorzugt ein Taskwechsel 
ausgefuhrt. 

Ffir eine Coprozessorkopplung werden bevorzugt uber das Be - 
triebssystem, i.b. den Scheduler gesteuerte Mechanismen ver- 
wendet : 

Ein einfacher Scheduler kann nach Obertragung einer Funktion 
auf eine VPU entweder den aktuellen Task auf der CPU weiter- 
laufen lassen, sofem dieser tinabhangig und parallel zur Da- 
tenverarbeitung auf einer VPU ablaufen kann. Sofem oder so- 
bald der Task auf die Beendigung der Datenverarbeitung auf der 
VPU warten muss, schaltet der Taskscheduler auf einen anderen 
Task urn. 

Jeder neu aktivierte Task wird, sofem er die VPU verwendet, 
vor Verwendung priifen, ob diese fdr eine Datenverarbeitung zur 
Verfugung steht und/oder aktuell noch Daten verarbeitet; dann 
soil entweder auf die Beendigung der Datenverarbeitung gewar- 
tet Oder bevorzugt der Task gewechselt werden. 

Ein einf aches und dennoch leistungsf ahiges Verfahren kann 
durch sogenannte Descriptor Tables aufgebaut werden, die be- 
spielsweise folgendermafien realisiert werden kSnnen: 
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Jeder Task generiert zum Aufruf der VPU eine oder mehrere Ta- 
belle (n) (VPUCALL) mit einem geelgneten festgelegten Datenfbr- 
mat in dem ihm zugewlesenen Speicherbereich. Diese Tabelle be- 
einhaltet samtliche Steuerinformation fiir eine VPU, wie z^B. 
das auszufilhrende Programm / die auszufiihrisnde Kohfiguriatibn 
und/oder Zeiger auf. die Speichelrstelie (n) oder Datenijuellen' 
der Bingangsdaten und/oder die Speicherstelle (n) oder Daten- 
senken der Ergebnisdaten und/oder weitere AusfOhrungspararae- 
ter, z.B. DatenarraygroSen • 

Im Speicherbereich des Betriebssystems befindet sich eine Ta- .. 
belle Oder verkettete Liste (LINKLIST) , die auf samtliche 
VPUCALL-Tabellen in der Reihenfolge ihrer Erstellung zeigt. 

Die Datenverarbeitung auf der VPU ISuft nunmehr derart ab, 
dass ein Task einen VPUCALL erstellt und uber das Betriebssy- 
stem die VPU aufruft. Das Betriebssystem erstellt einen Ein- 
trag in der LINKLIST. Die VPU arbeitet die LINKLIST ab und 
fuhrt die jeweils referenzierten VPUCALL aus. Die Beendigung • 
einer der jeweiligen Datenabarbeitung wird jeweils durch einen 
entsprechenden Eintrag in die LINKLIST und/oder VPUCALL Tabel^ 
le angezeigt. 

Die VPU arbeitet somit weitgehend unabhangig von der CPU. Das 
Betriebssystem und/oder die jeweiligen Task miissen lediglich 
die Tabellen (LINKLIST bzw. VPUCALL) uberwachen. 

Besonders performanceef f izient arbeiten die beiden Verfahren, 
wenn als VPU eine Architektur zum Einsatz kommt, die eine mit • 
der Datenverarbeitung Clberlagerte und/oder flberlagerbare Re- 
konfiguration zulisst. 



33 



wo 02/103532 PCT/£P02/06865 

Damit ist es moglich, eine neue Datenverarbeitxing vind eine 
ggf . damit verbiindene Rekonf iguriation sofort. nach Leseh der 
letzten Operanden aus den Datenquellen zu starten* Mit anderen 
Worten ist fur die Synchronisation nicht mehr das Beenden der 
batenverarbeitiing, soiidem das Leseh der letzten Operanden er- 
forderlich. Dadurch wird die Performance der Datenverarbeitung 
erheblich gesteigert. 

inen zusatzlichen Einflufi auf die Betrachtung und den Umgang 
mit Zustanden hat der m5gliche Einsatz eines Betriebssystemes. 
^etriebssysteme verwenden beispielsweise Task-Scheduler zum 
Verwalten mehrere Aufgaben (Tasks) , um ein Multitasking zur . 
Verfugung zu stellen. 

Task-Scheduler brechen Tasks zu einem bestiramten Zeitpuhkt ab, 
starten andere Tasks und kehren nach deren Abarbeitung zur 
Weiterbearbeitung des abgebrochenen Tasks zuriick. 
Sofern sichergestellt ist, daB eine Konf iguration - die der 
Abarbeitung eines Tasks entspricht - nur nach der kompletten 
Abarbeitung - d.h. wenn alle innerhalb dieses Konf igurations- 
zyklusses zu bearbeitende Daten und ZustSnde gespeichert sind 
- tenainiert, k5nnen lokal relevante ZustSnde ungespeichert 
bleiben. 

Sofern der Task-Scheduler allerdings Konf igurationen vor deren 
yollstandiger Abarbeitung abbricht, mUssen lokale Zustande 
und/oder Daten gespeichert werden. Weiterhin ist dies von Vor- 
teilr wenn die Abarbeitungszeit einer Konfiguration nicht vor- 
hergesagt werden kann. In Verbindung mit dem bekannten Halte- 
problem und dem Risiko, dafl eine Konfiguration (z.B. durch ei- 
nen Fehler) gar nicht termini^rt, erscheint dies weiterhin 
sinnvoll, um damit einen Deadlock des gesamten Systems zu ver- 
hindern . 

Mit anderen Worten sind, unter BerUcksichtung von Taskwech- 
seln, relevante Zustande auch als solche anzusehen, die fttr 
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einen Taskwechsel und ein erneutes korrelces Aufsetzen der Da- 
tenverafbeitung notwendig sind. . 

Bei einem Taskswitch ist somit der Speicher fiir Ergebnisse und 
ggf . auch der Speicher fur die Operanden zxx sichern und zu ei- 
hem spatereri ZeitpuriJct, also bei der RQckkehr zu die sera Task, 
wieder her zustelleh. Dies kainh vergleichbar zu den PUSH/POP 
Befehlen und Verfahren nach dem Stand der Technik erfolgen. 
Weiterhin ist der Zustand der Datenverarbeitung zu sichern, 
also der Zeiger auf die zuletzt vollst^ndig bearbeiteten Ope- 
randen. Es sei hier besonders auf PACT18 verwiesen. 

AbhMngig von der Opt imie rung des Taskswitches' gibt es bei- 
spielsweise zwei Mogiichkeiten: 

a) Die abgebrochene Konfiguration wird neu konfiguriert und 
nur die Operanden werden geladen. Die Datenverarbeitung be- 
ginnt von neuem, als ob die Bearbeutung der Konfiguration rioch 
gar nicht begonnen wurde. Mit anderen Worten werden einfach 
alle Datenberechnungen von vorne an ausgeftthrt, wobei ggf. Be- 
rechnungen bereits zuvor durchgefahrt wurden. Diese M5glich- 
keit ist einfach aber nicht sehr effizient. 

b) Die abgebrochene Konfiguration wird neu konfiguriert, wobei 
die Operaden. und bereits berechneten Ergebnisse in die jewei- 
ligen Speicher geladen werden. Die Datenverarbeitung wird bei 
den Operanden for tgesetzt die nicht mehr vollstandig berechi^iet 
wurden. Dieses Verfahren ist sehr viel effizienter, setzt aber 
voraus, dafi ggf. zusatzliche Zustande die wahrend der Verar- 
beitung der Konfiguration entstehen relevant werden, bei- 
spielsweise mufi zumindest ein Zeiger auf die zuletzt vollstan- 
dig verechneten Operanden gesichert werden, damit bei deren 
Nachfolgern hach erfolgter neuer Konfiguration. neu aufgesetzt 
werden kann. 

Eine besonders bevorzugte Variante zur Verwaltung von relevan- 

ten Daten wird durch den nachfolgend beschriebenen Kontext 

Switch zur Verftigung gestellt. Bei Task-Wechseln und/oder bei 

35 



wo 02/103532 



PCT/EP02/06865 



der Ausfuhrung von Konfigurationen und derem Wechsel (siehe 
beispielsweise Patentanmeldung PACT15, die zu Offenbarungs-. . 
zwecken vollumfanglich eingegliedert ist) kann es erforderlich 
sein, Daten Oder ZustMnde^ die typischerweise nicht zusammen 
mit den Arbeitsdaten in die Speicher abgelegt werden/ da sie 
beispielsweise lediglicheihen Endw^rt iriarkieren/ fiir eine 
nachfolgende Konfiguration zusichern. 

Der erfindungsgemaSe Kontext Switch wird derart durchgeftihrt, 
dass eine erste Konfiguration entfernt wird, die zu= sichernden 
Daten verbleiben in den entsprechenden Speichern (REG). (Spei- 
cher. Register, Zahler, etc). 

Eine zweite Konfiguration wird geladenr diese verbindet die 
REG in geeigneter Weise und definierter Reihenfolge mit einem 
Oder mehreren globalen Speicher(n), 

Die Konfiguration kann beispielsweise Adressgeneratoren ver- 
wenden um auf den/die globalen Speicher zuzugreifen. 
Die Konfiguration kann beispielsweise Adressgeneratoren ver- 
wenden um auf als Speicher ausgestaltete REG zuzugreifen. 
Entsprechend der konfigurierten Verbindung zwischen den REG 
werden die Inhalte der REG in einer definierten Reihenfolge in 
den globalen Speicher geschrieben, wobei die jeweiligen Adres- 
sen von Adressgeneratoren vorgegeben werden. Der Adressgenera- 
tpr generiert die Adressen ftir den/die globalen Speicher (n) 
derart, dass die beschriebenen Speicherbereiche (PUSHAREA) der 
entfernten ersten Konfiguration eindeutig zugeordnet werden 
k5nnen . 

Mit anderen Worten, es sind bevorzugt far unterschiedliche 
Konfigurationen unterschiedliche AdressenrMume vorgesehen. Die 
Konfiguration entspricht einem POSH gewohnlicher Prozessoren. 

Danach verwenden andere Konfigurationen die Ressourcen. 

Die erste Konfiguration soil wieder gestartet werden. Zuvor 

wird eine dritte Konfiguration gestartet, die die REG der er- 
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sten Konfiguration in einer definierten Reihenfolge miteinan- 
der verbxndet- 

Die Konfiguration kann beispielsweise Adressgeneratoren ver- 
wenderi Umauf den/die global sen Speicherzuzugreif en. 

Die Konfiguration kann beispielsweise Adressgeneratoren ver- 
wenden um auf als Speicher ausgestaltete REG zuzugreifen. 

Ein Adressgenerator generi^rt Adressen derart, dass ein kor- 
rekter Zugriff auf die der ersten. Konfiguration zugeordnete 
PUSHAREA erfolgt. Die generierten Adressen und die konfigu- 
rierte Reihenfolge der REG sind derart, dass die Oaten der REG 
in der ursprtinglichen Ordnung aus den Speichern in die REG ge- 
schrieben werden. Die Konfiguration entspricht einem POP ge- 
wohnlicher Prozessoren. 

Die erste Konfiguration wird wieder gestartet. 

Zusammengefafit wird ein Kontext Switch derart durchgefUhrt, 
dass durch das Laden besonderer Konf igurationen, die ahnlich 
von PUSH/PQP bekannter Prozessorarchitekturen arbeiten, die zu 
sichernden Daten mit einem globalen Speicher ausgetauschen 
• werden. • , . ' " 

Die Funktion soli in einem Beispiel verdeutlicht werden: 

Eine Funktion addiert 2 Zahlenreihen, die LSnge der Reihen ist 

zur Obersetzungszeit nicht bekannt, sondern erst zur Laufzeit. 

proc example 

while Klength do 
x[i] - a[i] + b[i] 

Die Funktion wird nun wahrend ihrer Ausfuhrung unterbrochen^ 

beispielsweise durch einen Task-Switch oder well der fdr x 
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vorgesehene Speicher voll ist, a,b,x befinden sich zu diesem 
Zeitpunkt erfindungsgemSfi in Speichern. i und ggf . length mUs- 
sen jedoch gesichert warden. 

Dazu wird die Konfiguration exsunple terminiert, wobei die Re- 
gister inhalte erhalten bleiben und eine Kohfiguration push ge- 
startet, die i und length aus deri Registerrt liest und in eiiien 
Speicher schreibt. 

proc push 

mem [ <push_adr_example> ] 
push_adr_example++ 
mem [<push_adr_example>] 

Nach der Ausfahrung wird push terminiert und die Registerin- 
halte konnen gel5scht warden. 

Andere Konf igurationen werden ausgafUhrt- Nach einiger Zeit 
wird die Konf iguration example wieder gestartet. 
Zuvor wird eine Konf iguration pop gestartet, die die Registe- 
rinhalte wieder aus dem Speicher liest. 

proc pop 

i = mem[<push_adr_exainple>] 
push_adr_example++ 

length = mem[<push_adr_example>l . .. 

Nach der Ausfiihrung wird pop terminiert und die Registerinhal- 
te bleiben bestehen. Die Konf iguration example wird wieder ge- 
startet 

Beschreibung der Figuren 

Figur 1 verdeutlicht ein Beispiel das vorgeschlagene Verfahren 
und zeigt einen mdglichen Systemauf bau . Dabei ist ein PR02ES- 
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SOR (0101) uber ein geeignetes Interface (0102) zum Daten- und 
Status-austausch mit einer VPU (0103) verbiirideh. 
Ein PROGRAMM- Code (0110) wird (z. B. durch einen Praprozessor 
fUr einen Compiler) beispielsweise gemaS den beschriebenen Ex- 
traktionsmethoden in einen ffir den PROZESSOR igeeigneten Teil 
(Olil) und einen VPU-geeigneteh Teil (0112) zerlegt.. 

Dili wird durch einen dem PROGRAMM-Code entsprechenden Stan- 
dard Compiler (0113) ubersetzt, wobei zuvor der zusatzliche 
Code zur Beschreibung und Verwaltung des Interfaces (0102) 
zwischen dem PROZESSOR und einer VPU aus einer Datenbank 
(0114) eingefugt wird. Auf 0101 ausfuhrbarer sequentieller 
Code wird generiert (0116) und sofern notwendig die entspre- 
chende Progratranierxmg (0117) des. Interfaces (0102) . 
Der Standard-Con5)iler kann dergestalt sein, daS er als 
marktiibliches Werkzeug oder im Rahmen einer marktilblichen Ent- 
wicklungsumgebung vorliegt. Der Praprozessor und/ oder mogli- 
cherweise der VPU-Compiler und/oder moglicherweise der Debug- 
ger und weitere Werkzeuge k5nnen beispielsweise in eine beste- 
hende marktiibliche Entwicklungsumgebung integriert werden. 

0112 wird durch einen VPU Compiler (0115) flbersetzt, wobei zu- 
s§tzlicher Code zur Beschreibung und Verwaltung des Interfaces 
(0102) aus einer Datenbank (0114) eingefugt wird. Auf 0103 
ausfuhrbare Konf igurationen werden generiert (0118) und sofern 
notwendig die entsprechende Programmieinng (0119) des Interfa- 
ces (0102) • Es soil ausdn[icklich erwahnt werden, da& prinzipi- 
ell auch Con^iler nach DE 101 39 170.6 f\ir 0115 verwendet wer- 
den kdnnen* 

In Pigur 2 ist beispielhaf t ein prinzipieller Ablauf einer 
Compilation dargestellt. Ein PROGRAMM (0201) wird in der Ex- 
traktionseinheit (0202) nach unterschiedlichen Verfahren in 
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VPU-Code(G203) und PROZESSOR-Code (0204) zerlegt. Unterschied- 
liche Methoden kdhnen in- beliebiger Kombination zur Extraktion 
angewendet werden, beispielsweise Hinweise im ursprflnglichen 
PROGRAMM (0205) und/oder Unterprogranunaufnife (0206) tmd/oder 
Analyseverfahren (0207) imd/oder eine Verwertuhg von objekt- 
orientierten Klassenbibllotheken (0206a) • Derj^Weils extra- 
hierte Code wird ggf . Gbersetzt und ggf . auf seine Eignung f\ir 
das jeweilige Zielsystem hin liberpruft (0208) . Dabei ist eine 
Rilckkopplung (02O9) auf die Extraiktioh moglich, um Verbesse- 
rungen durch eine geanderte Zuordnung der Codes zu einem PRO- 
ZESSORoder einer VPU bzw.einer Vielzahl derselben zu erhal- 
ten'. ■• 

Danach (0211) wird 0203 durch den Interface -Code aus einer Da- 
tenbank (0210) erweitert (0212) und/oder 0204 wird durch den 
Interface -Code aus 0210 zu 0213 erweitert - 
Der entstandene Code wird auf seine Performance analysiert 
(0214), ggf. ist eine RQckkopplxing (0215) auf die Extraktion 
m6glich, um Verbesserungen durch eine ge&nderte Zuordnxing der 
Codes zum PR02ESS0R Oder einer VPU zu erhalten. 
Der entstandene VPU-Code (0216) wird fQr eine weitere Uberset- 
zung an einen nachgeschalteten fur die VPU geeigneten Compiler 
weitergegeben. Der entstandene PROZESSOR-Code (0217) wird fvlr 
die weitere Ubersfetztmg in einem beliebigen nachgeschalteten 
fiir den PRO2ESS0R geeigneten Compiler weiterverarbeitet . 

Es soli angemerkt werden, dafi* einzelne Schritte je nach Ver- 
fahren ausgelassen werden konnen. Wesentlich ist, daS ein zu- 
mindest weitgehend kon^letter und ohne, wenigstens ohne signi- 
fikanten Eingriff durch den Programmierer direkt ubersetzbarer 
Code an jeweils nachgeschaltete Compilersysteme ausgegeben 
wird- 
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Es wird demnach vorgeschlagen, daS ein Praprozessormittel mit 
eihem Codeeingahg fur die Einspeisung von zu cdmpilierendem 
Code, mit Codeanalysemittelh, insbesondere Codestruktur 
und/oder Datenformat- und/oder Datenstroms-Erkennungs- 
luid/oder Bewertungsmitteln sowie niit einem Auf teilxingsbewer- 
tuhgismittel ziir Bewertiing einer im Aiisprechen auf Signale -^us 
dem Codeanalysemittel vorgenbmmenen Codeauf teilung sowie gege- 
benenfalls einem Iterationsmittel zur Wiederholung einer Code- 
aufteilung bis zura Erreichen stcOoiler. und/oder hinreichend ak- 
zeptabler Werte mit zumiridest zwei Teilcodeausgangen versehen 
ist, wobei ein erster TeilcodeausgaLhg Teilcode fur zuraindest 
einen herkommlichen Prozessor ausgibt/ und wenigstens ein wei^ 
terer Teilcodeausgang zur Abarbeitung mit rekonf igurierbaren 
Logikeinheiten, insbesondere mehr- bzw. multidimensionale ins- 
besondere Zellstrxikturen aufweisend, insbesondere grobgranula- 
re datenverarbeitende und/oder Logikzellen (PAEs) mit Rechen- 
werken und dergleichen sowie gg£. zugeordneten Registermitteln 
tind/oder feingranularen Steuer- \ind/oder Kontrollmitteln wie 
Zustandsmaschinen, RDY/ACK- Trigger- und Kommunikationsleitun- 
gen usw bestimmten Code ausgibt. Beide TeilcodeausgcLnge kdnnen 
in multiplexweise seriell auf einem physikalischeh Ausgang 
liegen. 

Die Datenbaiik fur die Interface -Codes (0210) wird unabhSngig 
und vor dem Compilerdurchlauf aufgebaut. Beispielsweise sind 
folgende Quellen fur die Datenbcmk mogli'ch: Vom Lieferanten 
vorgegeben (0220), vom Benutzer programmiert (0221) Oder auto- 
matisch von einem Entwicklungssystem generiert (0222) . 

Der Aufbau einer besonders bevorzugten VPU ist in Figur 3 dar- 

gestellt. Vorzugsweise hierarchische Konf igurationsmanager 

(C^T's) (0301) steuem und verwalten eine Anordnung von rekon- 

f igurierbaren Elementen (PACs) (0302) • Den CT's ist ein. loka- 

41 



wo 02/103532 PCT/EP02/06865 

ler Speicher f\ir die Konfigurationen zugeprdnet (0303). Der 
Speiche^r verfugt weiterhin uber ein Intertace (0304) zu einem 
globalen Speicher, der die Kbnf igurationsdaten zur Verf ugung 
stellt- fiber ein Interface (0305) sind die Konf igurationsab- 
lauft steuerbar • Ein Interface der rekonf igurierbareii Elemente 
(0302) zur Ablaufsteueihing und Ereignisverwaltung (0306) ist 
vorhanden, ebenso ein Interface zum Datenaustausch (0307) . 

Pigur 4 zeigt einen Ausschnitt aus einem beispielhaf ten CPU 
System, beispielsweise einem DSP des Types C6000 von Texas In- 
struments (0401) . Dargestellt sind ProgrammspeiGher (0402) , . 
Datenspeicher (0403), beliebige Peripherie (0404) iindEMIP • 
(0405) . fiber einen Speicherbus (0406) und einem Peripheriebus 
(0407) ist eine VPU als Coprozessor integriert (0408). Ein 
DMA-Kont roller (EDMA) (0409) kann beliebige DMA- Transfers, 
beispielsweise zwischen Speicher (0403) und VPU (0408) Oder 
Speicher (0403) und Peripherie (0404) durchfflhren. 

Pigur 5 zeigt eine abstraktere Systemdef inition, Einer CPU 
(0501) ist Speicher (0502) zugeordnet auf den diese schreiben- 
den und/oder lesenden Zugriff besitzt. Eine VPU (0503) ist mit 
dem Speicher gekoppelt. Die VPU ist in einen CT-Teil (0509) 
und die rekonf igurierbaren Elemente zuir Datenyerarbeitting 
(0510) untergliedert . 

Zur Steigerung der Speicherzugriffe kann der Speicher mehrere 
unabhangige Zugrif fsbusse aufweisen (multiport) . In einer be- 
sonders bevorzugten Ausgestaltting ist der Speicher in mehrere 
\inabhangige Segmente (Speicherbanks) segmentiert, wobei auf 
jede Bank unabhangig zugriff en werden kann. SSmtliche Segmente 
liegen vorzugsweise innerhalb eines einheitlichen Adressrauras. 
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Vorzugsweise steht ein Segment hauptsachiich fir die CPU zur 
Yerfflgung (0504), ein weiteres Segment steht hauptsachiich fiir 
die Datenverarbeitxing der VPU zur Verfflgiing (0505) ; ein weite- 
res Segment steht hauptsachiich fiir die Konf igurationsdaten 
der Vpu zur Verfugiihg (0506). 

Typischerweise iiha hievorzu^t weist eine vbllausgestaltete VPtJ 
eigene Adressgeneratoren und/oder DMAs auf um Datentransfers 
durchzuf uhren . Alternativ und/oder zusatzlich ist es moglich, 
dass ein DMA (0507) innerhalb des Systems (Fig. 5) fur Daten- 
transfers mit der VPU vorgesehen ist. 

Das System enthalt 10 (0508) auf die CPU und VPU Zugrif f haben 
kdnnen. 

Sowohl CPU als auch VPU kdnnen jeweils dedizierte Speicherbe- 
reiche und lO-fiereiche aufweisjen, auf die der jeweils andere 
keinen Zugrif f hat. 

Ein Datensatz (0511) der im Speicherbereich und/oder im 10- 
Bereich und/oder partiell in einem ;von beiden liegen kcuin wird 
zur Kbmmunikation zwischen CiPU und VPU verwendet, z.B. zum 
Austausch von Basisparametem und Steuer information. Der Da- 
tensatz kahn beispieleweise folgende Information beeinhalten: 

1. Basisadresse (n) des CT-Speicherbereiches in 0506 zur Lo- 
kalisierung der Konf igurationen*. 

2 . Basisadresse (n) von Datentransfers mit 0505. 

3. 10 Adressen von Datentransfers mit 0508. 

4. Synchronisationsinformation, z.B. Zurtlcksetzen, anhalten, 
start en der VPU. 

5. Statusinformation der VPU, z.B. Fehler oder Zustand der 
Datenverarbei t\ing . 
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Die Synchronisation der CPU und VPU erfolgt durch Poll^^^:yoh - 
Daten imd/oder bevorzugt durch Interruptsteueruiig (0512) . 

Figur 6 zeigt eine mogliche Ausgestaltung der Interf acestruk- 
tur einer VPU zur Einbindung iri ein System Shnlich Figur 5. 
Daiu werden der VPU eih gpeicher/DMA-und/odier 10-^ Interf ace 
zum Datentransfer zugeordnet (0601) , ein weiteres System- 
Interface (0602) abernimmt die Ablauf steuerung wie z.B. das 
Verwalten von Interrupts, das Starten/Stoppen der Verarbei- 
tung, Austausch von Fehlerzustanden, etc.. • 

Das Speicher/DMA- und/oder 10- Interface wird an einen Spei- 
cherbus und/oder lO-Bus angeschlossen. 

Das System- Interface wird vorzugsweise an einen lO-Bus ange- 
schlossen, kann jedoch altemativ oder zus§tzlich entsprechend 
0511 auch an einen Speicher smgeschlossen sein. 

Die Interfaces (0601, 0402) konnen zur Anpassting von unter- 
schiedlichen Arbeitsf requenzen von CPU und/oder VPU und/oder 
System ausgestaltet sein, beispielsweise kann das System bzw. 
die CPU mit zB derzeit 500MHz und die VPU mit 200MHz arbeiten. 

Die Interfaces kSnnen eine. Uber set zung der Busprotokplle 
durchfuhren, beispielsweise kann das VPU interne .Protokoll auf 
ein extemes AMBA-Busprotokoll umgesetzt werden. Sie bewirken 
also Busprotokolliibersetzungsmittel und/oder sind fur die Bus- 
protokolliibersetzung ausgebildet, insbesondere die Busproto- 
kolliibersetzung zwischen intemem VP.U-Protokoll und bekanntem 
Busprotokoll . Es ist auch moglich, eine Konvertierung direkt 
auf CPU- interne Busprotokolle vorzusehen. 

Das Speicher/DMA- und/oder 10- Interface unterstutzt den Spei- 

cherzugriff der CT auf einen extemen Speicher, der vorzugs- 

44 



\V0 02/103532 PCT/EP02/06865 

weise direkt (memory mapped) erfolgt. Der Datentransfer der 
CT(s) und/oder PAC(s) kaim gepluffert z,B, iiber FliPO-Stufen er- 
folgen. Externer Speicher kann direkt angesprochen und adres- 
siert werden, weiterhin kdnnen DMA interne xind/oder exteme 
DMA- Transfers durchgefiihrt Weirden. 

tiber das System- Interface erfolgt die Steuenihg der batenver- 
arbeitting, wie beispielsweise die Initialisierung \ind/oder der 
Start von Konf igurationen. Des weitisren werden Status tmd/oder 
Pehlerzustande ausgetauscht . Interrupts fur die Steuerung iind 
Synchronisation zwischen den Ct's und einer CPU konnen unter- 
stiitzt werden. 

Das System- Interface kann VPU- interne Protokolle derart kon- 
vertieren, dass diese auf exteme (Standard) -Protokolle umge- 
setzt werden (z.B. AMBA) . 

Bin bevorzugtes Verf ahren zur Codegenerierung fiir das be- 
schriebene System ist in anderen Teilen dieser Anmeldung be- 
schrieben. Das Verf ahren beschreibt einen Compiler, der Pro- 
grammcode in Code fiir eine CPU und Code fur eine VPU zerteilt. 
Nach unterschiedlichen Verf ahren wird die Zerlegung auf die 
\interschiedlichen Prozessoren durchgefuhrt • In einer besonders 
bevbrzugten Ausfuhrung werden dabei die jeweiligen zerlegten 
Codes um die Interface -Rout inen zur Kommunikation zwischen. CPU 
\ind VPU erweitert. Die Erweiterung kann automatisch durch den 
Compiler erfolgen. 

Die nachfolgende Tabellen zeigen beispielhafte Kommunikationen 

zwischen einer CPU und einer VPU. Den Spalten sind die jewei- 

lig aktiven Pxinktionseinheiten zugeordnet: CPU, System-im .und 

DMA- Interface (EDMA) bzw. Speicher- Interface (Speicher-I/P) , 

System- Interface (System- I/P, 0602), CT's, sowie die PAC. In 

den Zeilen sind die einzelnen Zyklen in ihrer Ausfiihrxmgsrei- 
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henfolge eingetragen. Kl referenziert eine auszufuhrende Kon- 
figuratibn 1. 



pie erste Tabelle zeigt beispielsweise einen Ablauf bei Ver- 
wend\mg der System-DMA (EDMA) zum Datentfansfer: 
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Es ist zu erwShnen, dass die Synchronisation zwischen der EDMA 
und der VPU automatisch fiber das Interface 0401 erfolgt, d.h. 
DMA-Tranfers finden nur statt, wenn die VPD dafur bereit ist. 



In einer zweiten Tabelle ist beispielsweise ein bervorzugter 
optimierter Ablauf dargestellt. Die VPU besitzt selbst direk- 
ten Zugriff auf den Konf igurationsspeicher (0306) . Desweiteren 
werden die Datentransfers durch DMA-Schaltung innerhalb der 
VPU ausgefuhrt, die beispielsw-ise fest implementiert sein 
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konnen \xnd/oder durch die Konf iguration von konf igurierbaren 
Teilen der PAC entstehen. 
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Der Aufwand fur die CPU ist minimal. 

Ziisammenfassend befafit sich die. vorliegende Erf indung mit Ver- 
fahren, die eine Obersetzung einer klassischen Hochsprache wie 
Pascal, C, C++, Java, etc, auf eine rekonfigurierbare Archi- 
tektur erm6giicht. Das Verfahren ist derart ausgelegt, daS nur 
die jeweils fiir die rekonfigurierbare Zielarchitektur geeigne- 
ten Telle des zu iibersetzenden Programmes extrahiert warden. 
Die verbleibenden Telle des Programmes werden auf eine konven- 
tionelle Prozessorarchitektur ubersetzt. 

In Pigur 7 sind aus Grunden der Ubersichtlichkeit nur die re- 

levanten Komponenten (i.b. der CPU) aufgezeigt sind, wobei ty- 
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pisch eine wesentliche Zahl weiterer Komponenten und Netzwerke 
vorhanden sein wirdv 



Eine bevorzugte Implement iening wie beispielsweise in Figur 1 
dargestellt kaim unterschiediiche Datentriansfers zwischen ei- 
ner CPU (0701) und VPU (0702) vorsehenv Die auf der ™ 
fOhrenden Konf igurationen warden durch den Instruktionsdekoder 
(0705) der CPU selektiert, der bestimmte fflr die VPU bestimmte 
Instruktionen erkennt und die CT (0706) derart anste^uert, dass 
diese die entsprechenden Konf igurationen aiis einem der CT zu- 
geordneten Speicher (0707) - der insbesondere mit der CPU ges-- 
hared werden oder derselbe wie der Arbeitsspeicher der. CPU 
sein kann, in das Array aus PAEs (PA, 0108) ladt. 

Es sind CPU-Register (0703) vorgesehen, um bei einer Register- 
kopplung Daten zu entnehmen, zu verarbeiten und in ein CPU- 
Register zurflckschreiben. b Fflr die Datensynchronisation ist 
ein Statusregister (0704) vorgesehen. Weiter ist ein Cache 
vorgesehen, der dafflr vorgesehren ist^ daS wenn Daten ausge- 
tauscht werden sollen, die kurz zuvor von der CPU verarbeitet 
warden, diese yoraussichtlich noch im Cache (0709) der CPU 
liegen bzw. sofort anschliessend von der CPU vierarbeitet wer- 
deii. ' 

Der exteme Bus ist mit (0710) bezeichnet und es werden dar- 
ker zB aus einer damit verbtmdenen Datenquelle (z.B. Spei- 
cher, Peripherie) gelesen, bzw. an den extemen Bus und der 
damit verb\indenen Datensenke (z,B. Speicher, Peripherie) ge- 
schrieben. Dieser Bus kann insbesondere derselbe wie der ex- 
teme Bus der CPU sein (0712 & gestrichelt) . 

Ein Protokoll (0711) zwischen Cache und Bus ist inplementiert, 
das fur einen korrekten Inhalt des Caches sorgt. Mit (0713) 
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ist ein FPGA (0713) bezeichentr der mit der VPU gekoppelt sein 
kann, urn feihgrsuiulare Datenverarbeitung zuermog lichen 
lind/oder ein flexible adaptierbare Interface (0714) (z.B. di- 
verse serielie Schni tt stellen ( V24 , USB , etc . ) /. diverse paral - 
lele Schnittsteilen, F^stpiattenschnittsteiien, Ethernet, Te- 
lekommuhikationsschhittstisllen (a/b, TO, ISDN, DSL, etc) ) zu 
weiteren Baugruppen imd/oder dem extemen Bussystem (0712) zu 
ermoglichen* 

Entsprechend Figiir 8 befindet sich Speicherbereich des Be- 
triebs systems eine Tabelle oder verkettete Liste (LINKLIST, 
0801), die auf samtliche VPUCALL-Tabellen (0802) in.der.Rei- 
henfolge ihrer Erstellung zeigt. 
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Patentansprtlche 

1. Verfahren zur Obersetzung von Programmen auf ein System be- 
steherid aus wenigstens einem ersten Prozessor und einer re- 
kozif igurlerbaren Einheit, dadurch gekeimzeichnet , da& die 
Codeteile, die fiir die rekonfigurie^rbare Einheit geeighet 
sind, bestimrat uiid extrahiert und/oder separiert wird, wo- 
bei verbleibender Code zur Abarbeitvmg durch den ersten 
Prozessor bestimmt wird. 

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet , dafi dem 
far den Prozessor extrahierten Code Interface -Code zugefiigt 
wird, der eine Kommunikation zwischen Prozessor und rekon- 
f igurierbarer Einheit entsprechend des Systemes ermoglicht. 



SO 
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3. Verfahren nach einem der vorhergehenden Anspruche, dadurch 
gekeiinzeichnet, daS detn fur die rekonf igurierbarer Einheit 
extrahierten Code.solcher Interface -Code zugef^igt wird, der 
eine Kommxinikatidn zwischen Prbzessbr und rekonf igurierba- 
rer Einheit entsprecheiid des Systems ermdglicht- 

4. Verfahren nach einem der vorhergehenden Anspruche, dadurch 
gekennzeichnet, daS der zu extrahierende Code aufgnmd von 
automat is iert en Analysen festgelegt wird, 

5. Verfahren nach einem der vorhergehenden Anspiruche, dadurch 
gekennzeichnet, dafi Hinweise im Code zur Feststellung des 
2u extrahierenden Code automat isch ausgewertet werden. 

6. Verfahren nach einem der vorhergehenden Anspruche, dadurch 
gekennzeichnet, dafi der zu extrahierende Code aufgrund von 
Aufrufen von Untexrprogrammen festgestellt wird. 

7. Verfahren nach einem der vorhergehenden Anspriiche, dadurch 
gekennzeichnet, dafi ein Interface -Code vorgesehen wird, 
der eine Speicherkopplung (Shared-Memoary) vorsieht 
und/oder eine Registerkopplung imd/oder eine Kopplung mit- 
tels eines Netzwerkes bewirkt. 

8. Verfahren nach einem der vorhergehenden AnsprCiche, dadurch 

gekennzeichnet , dafi der extrahierte Code vmd/oder mit einer 
gegebenen Extraktion erzielbaren Resultate analysiert wird 
und gegebenenfalls die Extraktion rait neuen verbesserten 
Parametem emeut gestartet wird. 

9. Verfahren nach einem der vorhergehenden Anspriiche, dadurch 
gekennzeichnet, dafi dem extrahierten Code Steuer-Code zur 
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Verwaltung und/oder Steuerung und/oder Kommxmikation der 
Entwicklungssysteme zugefugt wird. 

10. Verfahren nach einem der vorhergehenden Anspruche, worin 
der erste Pfozessor eine konventibnelle Prozessorarchitek- 
tur aufweist; insbesondereein Pfozessor m von -Neumann 
- und/oder Harwardarchitektur, Kontroller, CISC-, RISC-, 
VLIW-, DSP-Prozessor. 

11 . Verfahren insbesondere nach einem der vorhergehenden An- 
spruche zur Ubersetzung von Programmen auf ein System be- 
stehend aus einem Prozessor und einer rekonf igurierbaren 
Einheit, dadurch gekennzeichnet , dafi die Codeteile, die f\ir 
die rekonfigurierbare Einheit geeignet sind, extrahiert 
werden, der verbleibende Code derart extrahiert wird, dafi 
er mittels eines beliebigen gewohnlichen unmodif izierten 
far den Prozessor geeigneten Compilers libersetzbar ist. 

12. Vorrichtung zur Datenverarbeitung mit wenigstens einem 
herkdmmlichen Prozessor und wenigstens einer rekonf igu- 
rierbaren Einheit, dadurch gekennzeichnet, dafi ein Mittel 
zum Informationsaustausch, insbesondere von Daten- und 
Status information, zwischen* herkdmmlichem Prozessor und 
rekonf igurierbarer Einheit aufweist, wobei das Mittel so 
ausgebildet ist, dafi ein Daten- und Statusinf ormation zwi- 
schen denselben wahrend der Abarbeitung eines oder mehrere 
Programme moglich ist und/oder ohne dafi insbesondere die 
Datenverarbeitung auf dem rekonf igurierbaren Prozessor 
\ind/oder dem herkdmmlichen Prozessor signifikant unterbro- 
chen werden mufi. 
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